К настоящему времени накоплено огромное количество данных о разнообразии организмов. Сохранить и использовать эти данные для решения научных задач помогают базы данных. В литературе описано несколько десятков баз, предназначенных для хранения данных о биоразнообразии. Каждая имеет оригинальную структуру, которая плохо согласуется со структурами других баз, что, в свою очередь, затрудняет обмен данными и формирование массивов больших данных о биоразнообразии.
Причиной сложившейся ситуации является отсутствие формальных определений универсальных компонент, из которых можно построить базу с любыми данными о разнообразии организмов. Анализ литературы и исследования авторов показывают, что универсальные компоненты есть в характеристиках любых организмов. Например, таксономическое название организма и место его поимки. Таких компонент шесть, и они отвечают на один из шести вопросов: что, где, когда, кто, откуда и куда . Первые три компоненты – что, где, когда – являются фундаментальными. Они составляют минимальную основу, которая описывает экземпляр таксона в пространственно-временных координатах. Каждой компоненте соответствует отдельная таблица базы данных. Эти таблицы связаны с таблицей данных об организме (особи) и не связаны между собой. Атрибуты связей между особью и таблицами компонент хранятся в промежуточных таблицах.
Процесс создания любой базы о разнообразии живых существ начинается с определения таблицы экземпляров организмов. Ее необходимо использовать, даже если нет явных данных об организмах. Тогда следует ввести виртуальные организмы и связать с ними остальные компоненты при помощи промежуточных таблиц. Последние состыковываются с прочими данными. Минимальные структуры всех таблиц, связи между ними и примеры построения баз данных описаны в настоящей работе.
В статье описаны требования к системе поддержки принятия решения при перепроектировании базы данных и сформулированы задачи, которые она должна решать.
В последние десятилетия все большую популярность набирают NoSQL базы данных, и все чаще разработчикам и администраторам таких баз по той или иной причине приходится решать задачу миграции баз данных из реляционной модели в модель NoSQL, например документно-ориентированную базу данных MongoDB. Описывается подход к такой миграции данных на основе теории множеств. Предлагаются правила для определения совокупности коллекций со вложенными документами NoSQL базы данных типа ключ-документ, оптимальной по времени выполнения поисковых запросов. Оптимизация числа коллекций и их структуры проводится с учетом атрибутов объектов базы данных, участвующих в поисковых запросах. Исходными данными являются свойства объектов (атрибуты, связи между атрибутами), информация о которых хранится в базе данных, и свойства запросов, которые наиболее часто выполняются или скорость их выполнения максимальна. В правилах учитываются основные типы связей (1-1, 1-М, М-М), свойственные реляционной модели. Рассматриваемая совокупность правил является дополнением к методу создания коллекций без вложенных документов. Также приводится методика для определения, в каких случаях какие методы надо использовать, чтобы сделать работу с базами данных более эффективной. В заключении приведены результаты тестирования предлагаемого метода на базах данных с различными начальными схемами. Результаты экспериментов показывают, что предлагаемый метод помимо сокращения времени выполнения запросов позволяет также значительно сократить объем памяти, необходимый для хранения данных в новой базе данных.
Естественность — один из важнейших аспектов синтезированной речи. Современ-ные параметрические синтезаторы речи требуют обучения на большом количестве аннотированных речевых данных, чтобы иметь возможность передавать просоди-ческие элементы, такие как тоническое ударение и фразовый граничный тон. Наиболее часто используемый инструментарий для просодической аннотации речи в американском английском языке — Индексы Тонов и Просодических швов — ToBI, которые также были адаптированы для использования на других языках. В настоящей статье представлены некоторые недостатки ToBI в синтезе речи на аме-риканском английском языке, которые связаны с отсутствием тегов, специально предназначенных для обозначения различий в уровне просодии (акцента), связан-ной с конкретной частью предложения. В данном исследовании предлагается вве-дение набора тегов, предназначенных для точного моделирования степени просо-дии, а именно определенная составляющая предложения может быть особо под-черкнута, если она является намеченным фокусом высказывания или ее роль пре-уменьшена, как это обычно бывает с фразами, сообщающими о прямой речи или комментариями.
С помощью нескольких аудирований было продемонстрировано, что изучение просодической модели на основе данных имеет определенные преимущества пе-ред подходами, пытающимися использовать существующие теги ToBI для переда-чи степени акцента в синтезированной речи: речь, синтезированная нейронной сетью, обученной на данных с тегами уровня просодии, представляется более естественной, и слушатели могут с большим успехом отыскать просодическую составляющую предложения.
Предлагается метод оценки семантической близости документов на основе латентно-семантического анализа, учета динамики изменения сингулярных значений матрицы терм-документ и автоматического определения диапазона ранговых значений. Оценка семантической близости документов рассматривается применительно к решению задач выявления дублирования и противоречий в базах данных.
Приводится краткий обзор подходов, используемых при оценке семантической близости документов, выявлении дублирования и противоречий в базах данных и хранилищах данных. Приводятся результаты численных примеров оценки семантических зависимостей между термами документов в интересах выявления дублирования и противоречий в базах данных. При этом в качестве результирующей характеристики рассчитывается степень соответствия λ сравниваемых документов.
Приведены сравнительные оценки расчета степени соответствия λ документов с помощью основных методов (косинусной меры близости, векторной модели, коэффициента ранговой корреляции Спирмена, статической меры tf-idf — частота термина — обратная документная частота).
Показано, что использование предложенного метода анализа динамики изменения сингулярных чисел матрицы «терм-документ» с автоматическим выбором диапазона используемых ранговых значений позволяет устранить зависимость метода латентно-семантического анализа от выбора оптимального ранга.
В данной работе мы рассмотрели различные методы организации физического уровня СУБД: вертикальное и горизонтальное фрагментирование, а также вкратце нами затронут вопрос репликации. Указанные методы были рассмотрены не только для локальных, но и для распределенных СУБД. Последним было уделено повышенное внимание: были рассмотрены методы размещения данных на узлах распределенной системы. Кроме теоретических работ, приведены работы практического характера, в которых освещены вопросы применения вышеуказанных методов в современных коммерческих СУБД. Они были рассмотрены как с позиции пользователя, так и с позиций архитектора и программиста СУБД
данной работе мы рассмотрели колоночные СУБД и их устройство. Было дано определение колоночной СУБД, представлены отличия от классических СУБД с построчным хранением. Были представлены сильные и слабые стороны колоночного подхода, причины его появления и успеха. Кроме того, в работе описана ниша, занимаемая современными коммерческими колоночными СУБД. Затем нами был рассмотрен набор технологических решений, используемых в данных СУБД. Наконец, в данной работе были рассмотрены вопросы выбора структур физического уровня для колоночных СУБД. В начале представлено краткое введение в проблему выбора данных структур. Затем, на основе произведенного обзора анализируется применимость подходов к устройству физического уровня классических СУБД (фрагментирование, размещение и пр.) к колоночным СУБД. Кроме того, рассматриваются способы, характерные именно для колоночных систем (различные порядки колонок, индексы соединения).
В работе описывается один из возможных подходов к автоматизации медико-биологических исследований. Подход заключается в построении конфигурации — системы взаимосвязанных и взаимоувязанных планов и сценариев. В работе приводятся примеры реальных медико-биологических исследований, в каждом из которых строится своя конфигурация. В результате обобщения рассмотренных конфигураций формируется набор основных компонентов, допускающих непосредственную программную реализацию, и строится конфигурация, которую можно использовать как типовую при разработке программно-инструментальных систем, предназначенных для проведения медико-биологических исследований.
В статье рассматривается возможность инструментального подхода к определению психосоматического статуса человека, основанного на совместной обработке разнотипных биометрических данных, полученных в результате измерения пульса, регистрации микродвижений лица и проведения психологического тестирования. Описывается минимальный состав программно-измерительного комплекса. Рассматриваются вопросы создания базы разнотипных биометрических данных.
1 - 9 из 9 результатов